JSAI2026 大規模視覚言語モデルを用いた候補レコード群による制約付き推論に基づく画像アイテムの同定
ダンボール画像からのアイテム特定
候補レコード群から選ぶ
全探索ではない
画像IDを解決する
候補レコード群
難しさ: 似たようなレコードが存在する
課題
表記揺れ
画像中の表記と候補群は単純な文字列一致ではだめ
選択式記述
丸印で選択されている
文字を読むだけではだめ
既存手法: OCR→照合 の課題
OCR時点では候補群を参照できない
提案手法
候補レコード群+画像をプロンプトとして渡す
わりとシンプルだった daiiz.icon
プロンプト(4要素)
タスク定義
ドメイン知識
略称で記載される可能性の説明
丸囲み出の単数選択のルール
候補レコード群
出力形式
JSON形式でIDを記述させる
評価
ダンボール 約400枚
結果
提案手法がもっとも良い
#聴講メモ